Dropout终于要被替换 (文末附源码)

极市平台 2021-09-20

以下文章来源于计算机视觉战队，作者Edison_G

极市平台是专业的视觉算法开发和分发平台，加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

作者：Edison_G

来源：计算机视觉战队

从深度学习被大家开始重视的时候，后续就出现一个神操作到现在还值得大家去使用，那就是“Dropout”的出现，为大家带来了很多优势，但是今年2018年NIPS开始搞事情了，更新换代的机会终于出现了，Hinton教授又为大家带来了新的发现，构建更新的架构——名为：Targeted Dropout！

想必，大家都对Dropout有所了解了吧，它已经是许多经典网络的标配，主要操作是随机删除部分神经元获得不同的输出。而新的方法——Targeted Dropout其实很类似于将剪枝嵌入到了学习过程，因此训练后再用剪枝操作会有更好的性质。

概要

神经网络是一种非常灵活的模型，由于其参数众多，有利于学习，但也具有高度的冗余性。这使得在不影响性能的情况下压缩神经网络成为可能。

我们引入了有针对性的Targeted Dropout，这是一种对神经网络权重和单元进行剪枝的策略，它将剪枝机制直接引入到学习中。在每次权值更新时，Targeted Dropout使用一个简单的选择标准选择一个候选组进行剪枝，然后通过应用于该集合的dropout对网络进行随机剪枝。与更复杂的正则化方案相比，最终的网络学会了更鲁棒的剪枝，同时具有极其简单的实现和易于调整的特性。

基础知识

Dropout

本次研究工作主要使用了两种最流行的Bernoulli Dropout技术，Hinton等人的Unit Dropout[1,2]和wan等人的Weight Dropout[3]。对于具有输入张量X、权重矩阵W、输出张量Y和Mask M的全连接层，定义了以下两种技术：

Unit Dropout：

Unit Dropout随机drop unit(有时称为神经元)在每个训练步骤，以减少unit之间的依赖，防止过拟合。

Weight Dropout：

在每个训练步骤中，Weight Dropout都会随机drop权重矩阵中的单个权重。直观地说，这是层间的dropping connection，迫使网络适应不同的连接在每一个训练步骤。

Magnitude-based pruning

一种流行的剪枝策略是那些Magnitude-based的剪枝策略。这些策略将Top-k的最大Magnitude权重视为重要因素，使用arg max-k返回所有考虑的元素中的Top-k元素(单位或权重)。

Unit Dropout：

考虑在L2范数下权矩阵的unit(列向量)：

Weight Dropout：

在L1-范数下分别考虑权重矩阵的每一项。请注意，top-k相对于相同滤波器中的其他权重：

虽然weight剪枝倾向于在更粗的剪枝下保持更多的任务性能，但unit剪枝可以大大节省计算量。

方法

考虑一个由θ参数化的神经网络，且希望按照Unit Dropout和Weight Dropout定义的方法对W进行剪枝。

因此，希望找到最优参数θ*，它能令损失函数ε(W(θ*))尽可能小的同时，令|W(θ* )|≤k，即希望保留神经网络中最高数量级的k个权重。一个确定性的实现可以选择最小的|θ|−k个元素，并删除它们。但是如果这些较小的值在训练中变得更重要，那么它们的数值应该是增加的。因此，通过利用targeting proportion γ和删除概率α，将随机性引入到了这个过程中。

其中targeting proportion表示会选择最小的γ|θ|个权重作为Dropout的候选权值，并且随后以删除概率α独立地去除候选集合中的权值。这意味着在Targeted Dropout中每次权重更新所保留的单元数为(1−γ*α)|θ|。

正如在后文所看到的，Targeted Dropout降低了重要子网络对不重要子网络的依赖性，因此降低了对已训练神经网络进行剪枝的性能损失。如下表1和表2所示，权重剪枝实验表示正则化方案的基线结果要比Targeted Dropout差，并且应用了Tageted Dropout的模型比不加正则化的模型性能更好，且同时参数量只有一半。通过在训练过程中逐渐将targeting proportion由0增加到99%，最终表示该方法能获得极高的剪枝率。

表1 ResNet-32在CIFAR-10的准确率，它会使用不同的剪枝率和正则化策略

注：上表展示了Weight Dropout策略的结果，下表展示了Unit Dropout的结果。

表2 比较Targeted Dropout和ramping Targeted Dropout的Smallify

实验在CIFAR-10上使用ResNet-32。其中左图为三次targeted中最好的结果与 6次smallify中最好结果的对比，中间图为检测出最高的剪枝率，右图为ramping Tageted Dropout检测出的更高剪枝率。

参考文献

[1] Geoffrey E Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, and Ruslan R Salakhut- dinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.

[2] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1):1929–1958, 2014.

[3] Li Wan, Matthew Zeiler, Sixin Zhang, Yann Le Cun, and Rob Fergus. Regularization of neural networks using dropconnect. In International Conference on Machine Learning, pages 1058–1066, 2013.

论文下载地址：https://openreview.net/pdf?id=HkghWScuoQ

源码：

https://nips.cc/Conferences/2018/Schedule?showEvent=10941

原英文文章转载帖：http://bbs.cvmart.net/articles/117/don-t-use-dropout-in-convolutional-networks

*推荐文章*

每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击左下角“阅读原文”立刻申请入群~

：，。视频小程序赞，轻点两下取消赞在看，轻点两下取消在看

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

Dropout终于要被替换 (文末附源码)

概要

基础知识

Magnitude-based pruning

方法

NeurIPS 2018亮点选读：深度推理学习中的图网络与关系表征

在深度学习中处理不均衡数据

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

Dropout终于要被替换 (文末附源码)

概要

基础知识

Magnitude-based pruning

方法

NeurIPS 2018亮点选读：深度推理学习中的图网络与关系表征

在深度学习中处理不均衡数据

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡